当前位置: 开发笔记 > 编程语言 > 正文

发生|可能会_图解elasticsearch原理

作者：没有1200 | 来源：互联网 | 2023-08-08 14:11

篇首语：本文由编程笔记#小编为大家整理，主要介绍了图解elasticsearch原理相关的知识，希望对你有一定的参考价值。点击上方关注“终端研发部

篇首语：本文由编程笔记#小编为大家整理，主要介绍了图解elasticsearch原理相关的知识，希望对你有一定的参考价值。

点击上方关注 “终端研发部”

设为“星标”&＃xff0c;和你一起掌握更多数据库知识

版本

elasticsearch版本: elasticsearch-2.x

内容

图解ElasticSearch

云上的集群

集群里的盒子

云里面的每个白色正方形的盒子代表一个节点——Node。

节点之间

在一个或者多个节点直接&＃xff0c;多个绿色小方块组合在一起形成一个ElasticSearch的索引。

索引里的小方块

在一个索引下&＃xff0c;分布在多个节点里的绿色小方块称为分片——Shard。

Shard&＃xff1d;Lucene Index

一个ElasticSearch的Shard本质上是一个Lucene Index。

Lucene是一个Full Text 搜索库&＃xff08;也有很多其他形式的搜索库&＃xff09;&＃xff0c;ElasticSearch是建立在Lucene之上的。接下来的故事要说的大部分内容实际上是ElasticSearch如何基于Lucene工作的。

图解Lucene

Mini索引——segment

在Lucene里面有很多小的segment&＃xff0c;我们可以把它们看成Lucene内部的mini-index。

Segment内部

有着许多数据结构

Inverted Index
Stored Fields
Document Values
Cache

最最重要的Inverted Index

Inverted Index主要包括两部分&＃xff1a;

一个有序的数据字典Dictionary&＃xff08;包括单词Term和它出现的频率&＃xff09;。
与单词Term对应的Postings&＃xff08;即存在这个单词的文件&＃xff09;。

当我们搜索的时候&＃xff0c;首先将搜索的内容分解&＃xff0c;然后在字典里找到对应Term&＃xff0c;从而查找到与搜索相关的文件内容。

查询“the fury”

自动补全&＃xff08;AutoCompletion-Prefix&＃xff09;

如果想要查找以字母“c”开头的字母&＃xff0c;可以简单的通过二分查找&＃xff08;Binary Search&＃xff09;在Inverted Index表中找到例如“choice”、“coming”这样的词&＃xff08;Term&＃xff09;。

昂贵的查找

如果想要查找所有包含“our”字母的单词&＃xff0c;那么系统会扫描整个Inverted Index&＃xff0c;这是非常昂贵的。

在此种情况下&＃xff0c;如果想要做优化&＃xff0c;那么我们面对的问题是如何生成合适的Term。

问题的转化

对于以上诸如此类的问题&＃xff0c;我们可能会有几种可行的解决方案&＃xff1a;

* suffix -> xiffus *
如果我们想以后缀作为搜索条件&＃xff0c;可以为Term做反向处理。
(60.6384, 6.5017) -> u4u8gyykk
对于GEO位置信息&＃xff0c;可以将它转换为GEO Hash。
123 -> 1-hundreds, 12-tens, 123
对于简单的数字&＃xff0c;可以为它生成多重形式的Term。

解决拼写错误

一个Python库为单词生成了一个包含错误拼写信息的树形状态机&＃xff0c;解决拼写错误的问题。

Stored Field字段查找

当我们想要查找包含某个特定标题内容的文件时&＃xff0c;Inverted Index就不能很好的解决这个问题&＃xff0c;所以Lucene提供了另外一种数据结构Stored Fields来解决这个问题。本质上&＃xff0c;Stored Fields是一个简单的键值对key-value。默认情况下&＃xff0c;ElasticSearch会存储整个文件的JSON source。

Document Values为了排序&＃xff0c;聚合

即使这样&＃xff0c;我们发现以上结构仍然无法解决诸如&＃xff1a;排序、聚合、facet&＃xff0c;因为我们可能会要读取大量不需要的信息。

所以&＃xff0c;另一种数据结构解决了此种问题&＃xff1a;Document Values。这种结构本质上就是一个列式的存储&＃xff0c;它高度优化了具有相同类型的数据的存储结构。

为了提高效率&＃xff0c;ElasticSearch可以将索引下某一个Document Value全部读取到内存中进行操作&＃xff0c;这大大提升访问速度&＃xff0c;但是也同时会消耗掉大量的内存空间。

总之&＃xff0c;这些数据结构Inverted Index、Stored Fields、Document Values及其缓存&＃xff0c;都在segment内部。

搜索发生时

搜索时&＃xff0c;Lucene会搜索所有的segment然后将每个segment的搜索结果返回&＃xff0c;最后合并呈现给客户。

Lucene的一些特性使得这个过程非常重要&＃xff1a;

Segments是不可变的&＃xff08;immutable&＃xff09;
- Delete? 当删除发生时&＃xff0c;Lucene做的只是将其标志位置为删除&＃xff0c;但是文件还是会在它原来的地方&＃xff0c;不会发生改变
- Update? 所以对于更新来说&＃xff0c;本质上它做的工作是&＃xff1a;先删除&＃xff0c;然后重新索引&＃xff08;Re-index&＃xff09;
随处可见的压缩
Lucene非常擅长压缩数据&＃xff0c;基本上所有教科书上的压缩方式&＃xff0c;都能在Lucene中找到。
缓存所有的所有
Lucene也会将所有的信息做缓存&＃xff0c;这大大提高了它的查询效率。

缓存的故事

当ElasticSearch索引一个文件的时候&＃xff0c;会为文件建立相应的缓存&＃xff0c;并且会定期&＃xff08;每秒&＃xff09;刷新这些数据&＃xff0c;然后这些文件就可以被搜索到。

随着时间的增加&＃xff0c;我们会有很多segments&＃xff0c;

所以ElasticSearch会将这些segment合并&＃xff0c;在这个过程中&＃xff0c;segment会最终被删除掉

这就是为什么增加文件可能会使索引所占空间变小&＃xff0c;它会引起merge&＃xff0c;从而可能会有更多的压缩。

举个栗子

有两个segment将会merge

这两个segment最终会被删除&＃xff0c;然后合并成一个新的segment

这时这个新的segment在缓存中处于cold状态&＃xff0c;但是大多数segment仍然保持不变&＃xff0c;处于warm状态。

以上场景经常在Lucene Index内部发生的。

在Shard中搜索

ElasticSearch从Shard中搜索的过程与Lucene Segment中搜索的过程类似。

与在Lucene Segment中搜索不同的是&＃xff0c;Shard可能是分布在不同Node上的&＃xff0c;所以在搜索与返回结果时&＃xff0c;所有的信息都会通过网络传输。

需要注意的是&＃xff1a;

1次搜索查找2个shard &＃xff1d; 2次分别搜索shard

对于日志文件的处理

当我们想搜索特定日期产生的日志时&＃xff0c;通过根据时间戳对日志文件进行分块与索引&＃xff0c;会极大提高搜索效率。

当我们想要删除旧的数据时也非常方便&＃xff0c;只需删除老的索引即可。

在上种情况下&＃xff0c;每个index有两个shards

如何Scale

shard不会进行更进一步的拆分&＃xff0c;但是shard可能会被转移到不同节点上

所以&＃xff0c;如果当集群节点压力增长到一定的程度&＃xff0c;我们可能会考虑增加新的节点&＃xff0c;这就会要求我们对所有数据进行重新索引&＃xff0c;这是我们不太希望看到的&＃xff0c;所以我们需要在规划的时候就考虑清楚&＃xff0c;如何去平衡足够多的节点与不足节点之间的关系。

节点分配与Shard优化

为更重要的数据索引节点&＃xff0c;分配性能更好的机器
确保每个shard都有副本信息replica

路由Routing

每个节点&＃xff0c;每个都存留一份路由表&＃xff0c;所以当请求到任何一个节点时&＃xff0c;ElasticSearch都有能力将请求转发到期望节点的shard进一步处理。

一个真实的请求

Query

Query有一个类型filtered&＃xff0c;以及一个multi_match的查询

Aggregation

根据作者进行聚合&＃xff0c;得到top10的hits的top10作者的信息

请求分发

这个请求可能被分发到集群里的任意一个节点

上帝节点

这时这个节点就成为当前请求的协调者&＃xff08;Coordinator&＃xff09;&＃xff0c;它决定&＃xff1a;

根据索引信息&＃xff0c;判断请求会被路由到哪个核心节点
以及哪个副本是可用的
等等

路由

在真实搜索之前

ElasticSearch 会将Query转换成Lucene Query

然后在所有的segment中执行计算

对于Filter条件本身也会有缓存

但queries不会被缓存&＃xff0c;所以如果相同的Query重复执行&＃xff0c;应用程序自己需要做缓存

所以&＃xff0c;

filters可以在任何时候使用
query只有在需要score的时候才使用

搜索结束之后&＃xff0c;结果会沿着下行的路径向上逐层返回。

原文&＃xff1a;

http://www.cnblogs.com/richaaaard/p/5226334.html

收藏&＃61;白嫖&＃xff0c;点赞&＃43;关注才是真爱&＃xff01;&＃xff01;&＃xff01;本篇文章如有不对之处&＃xff0c;还请在评论区指出~

本文转自 https://www.cnblogs.com/melojun/p/mysql-index.html&＃xff0c;如有侵权&＃xff0c;请联系删除。

最后说一句&＃xff08;别白嫖&＃xff0c;求关注&＃xff09;

回复【idea激活】即可获得idea的激活方式回复【Java】获取java相关的视频教程和资料回复【SpringCloud】获取SpringCloud相关多的学习资料回复【python】获取全套0基础Python知识手册回复【2020】获取2020java相关面试题教程回复【加群】即可加入终端研发部相关的技术交流群阅读更多用 Spring 的 BeanUtils 前&＃xff0c;建议你先了解这几个坑&＃xff01; lazy-mock &＃xff0c;一个生成后端模拟数据的懒人工具在华为鸿蒙 OS 上尝鲜&＃xff0c;我的第一个“hello world”&＃xff0c;起飞&＃xff01; 字节跳动一面&＃xff1a;i&＃43;&＃43; 是线程安全的吗&＃xff1f; 一条 SQL 引发的事故&＃xff0c;同事直接被开除&＃xff01;&＃xff01; 太扎心&＃xff01;排查阿里云 ECS 的 CPU 居然达100% 一款vue编写的功能强大的swagger-ui&＃xff0c;有点秀&＃xff08;附开源地址&＃xff09; 相信自己&＃xff0c;没有做不到的&＃xff0c;只有想不到的在这里获得的不仅仅是技术&＃xff01; 喜欢就给个“在看”

推荐阅读

rsa
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
rsa
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
rsa
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
get
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
text
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
copy
海马s5近光灯能否直接更换为H7？

本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡，并提供了完整的教程下载地址。此外，还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]

蜡笔小新 2023-12-12 11:39:00
text
模板引擎StringTemplate的使用方法和特点

本文介绍了模板引擎StringTemplate的使用方法和特点，包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时，还介绍了StringTemplate语法中的属性和普通字符的使用方法，并提供了向模板填充属性的示例代码。 ... [详细]

蜡笔小新 2023-12-11 21:45:03
runtime
python限制递归次数（python最大公约数递归）

本文目录一览：1、python为什么要进行递归限制 ... [详细]

蜡笔小新 2023-12-11 17:39:02
search
CentOS 6.4更新源地址的方法

本文介绍了在CentOS 6.4系统中更新源地址的方法，包括备份现有源文件、下载163源、修改文件名、更新列表和系统，并提供了相应的命令。 ... [详细]

蜡笔小新 2023-12-11 16:09:40
text
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
text
单页面应用 VS 多页面应用的区别和适用场景

本文主要介绍了单页面应用（SPA）和多页面应用（MPA）的区别和适用场景。单页面应用只有一个主页面，所有内容都包含在主页面中，页面切换快但需要做相关的调优；多页面应用有多个独立的页面，每个页面都要加载相关资源，页面切换慢但适用于对SEO要求较高的应用。文章还提到了两者在资源加载、过渡动画、路由模式和数据传递方面的差异。 ... [详细]

蜡笔小新 2023-12-10 19:31:50
bit
Android开发优化之软引用与弱引用的应用

本文介绍了在Android开发中使用软引用和弱引用的应用。如果一个对象只具有软引用，那么只有在内存不够的情况下才会被回收，可以用来实现内存敏感的高速缓存；而如果一个对象只具有弱引用，不管内存是否足够，都会被垃圾回收器回收。软引用和弱引用还可以与引用队列联合使用，当被引用的对象被回收时，会将引用加入到关联的引用队列中。软引用和弱引用的根本区别在于生命周期的长短，弱引用的对象可能随时被回收，而软引用的对象只有在内存不够时才会被回收。 ... [详细]

蜡笔小新 2023-12-10 16:33:12
get
Redis数据结构之string应用场景解析

本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ... [详细]

蜡笔小新 2023-12-14 14:02:42
char
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
select
Oracle seg,V$TEMPSEG_USAGE与Oracle排序的关系及使用方法

本文介绍了Oracle seg,V$TEMPSEG_USAGE与Oracle排序之间的关系，V$TEMPSEG_USAGE是V_$SORT_USAGE的同义词，通过查询dba_objects和dba_synonyms视图可以了解到它们的详细信息。同时，还探讨了V$TEMPSEG_USAGE的使用方法。 ... [详细]

蜡笔小新 2023-12-12 17:57:15

没有1200

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章